PAWS: Aprendizaje de Preferencias con Segmentos Ponderados por Ventaja
PAWS alinea entrenamiento e inferencia en aprendizaje por preferencias usando segmentos ponderados por ventaja. Mejora políticas.
PAWS alinea entrenamiento e inferencia en aprendizaje por preferencias usando segmentos ponderados por ventaja. Mejora políticas.